今日の論文号外:Next-generation sequencing and the expanding domain of phylogeography
#今日の論文 #研究
2022-04-26
Edwards, S. V., Shultz, A. J., & Campbell-Staton, S. C. (2015). Next-generation sequencing and the expanding domain of phylogeography. Folia Zoologica 64(3), 187-206. https://doi.org/10.25225/fozo.v64.i3.a2.2015
次世代シーケンシングと系統地理学の領域拡大
昨日読んでおもしろかったので全訳してみた。
2015年の論文なので,若干情報が古いかもしれないことに注意。
イントロダクション
Introduction
進化生物学の多くの分野と同様,系統地理学も遺伝的変異を測定するための利用可能な技術によって絶えず変貌を遂げてきた。事実,遺伝的変異を測定するためのさまざまなアプローチは,利用可能な技術の登場と衰退に伴って変遷してきた。決定論的な見方をすれば,数十年にわたるマーカー使用の大きなトレンドは,PCRや次世代シーケンサーなど,利用可能な技術に大きく左右されてきたと言えるかもしれない(総説:Brito & Edwards 2009)。しかし,より「自由意志」に近い見方をすれば,マーカーの選択は,学問分野の概念的なニーズや,あるマーカーを他のマーカーよりも優先させる中核的な概念の背後にある研究分野の結集によっても推進されていると言えるかもしれない。明らかなのは,系統分類学者が利用できる技術が変化するにつれて,学問の境界線,すなわち取り組むべき問題や仮説の種類も変化してきたということである。特に,系統地理学は,従来は姉妹分野である集団遺伝学の範疇であった問題を頻繁に扱うようになり,自然集団における表現型の変異の原因となる遺伝子座の特定という領域もますます広がっている。このような新たな疑問は,系統分類学の分野の形や,それに答えるために系統分類学者が採用するツールにも影響を及ぼしかねない。このエッセイでは,このような技術や疑問の変化というレンズを通して,系統地理学の歴史と未来を探る。次世代シーケンサーにより多数の遺伝子座で変異を測定できるようになった結果,系統地理学の領域が拡大し,選択 selection や景観全体にわたる遺伝子と環境との共変動 covariance の調査が含まれるようになったことを指摘する。マーカー使用の傾向には,技術的な決定要因もあれば,マーカーの自由選択の時代的な変化もあることを述べる。最近の他のレビューと同様に,我々は地理的空間を越えてサンプリングされた自然集団の全ゲノムリシーケンスを日常的に行うことで,マーカーツールキットと系統地理学的疑問とが大幅に拡大される日が来ることを予見している。
分子マーカーと系統地理学の中核概念
Molecular markers and the core concepts of phylogeography
1990年代にはポリメラーゼ連鎖反応(PCR)が主役となり,動物のミトコンドリアDNA(mtDNA)や植物の葉緑体DNA(cpDNA)に注目した研究が盛んに行われるようになった。オルガネラゲノムへの注目は必ずしもPCRに規定されたわけではないが,PCRを用いた増幅の容易さと,核遺伝子を日常的に扱うことは難しいという系統地理学者の認識のために,オルガネラゲノムが現実的な焦点となった。mtDNAとcpDNAは種内レベルで多型であり,組換えがほとんどないため,DNA配列から遺伝子系統樹への移行がデータ操作なしで簡単にできることも魅力であった。オルガネラゲノムに注目するようになると,現在では系統地理学を学ぶ人なら誰でも知っているような,よく言われる注意事項が生じた(Edwards & Bensch 2009)。雌雄間の遺伝子流動の違いにより,オルガネラゲノムが特定の種の偏った歴史を復元する可能性があること。オルガネラゲノムの有効集団サイズが小さいため,平均的なマーカーよりも忠実に集団の系統を追跡し,時には集団史を単純に捉えすぎてしまう可能性があること。さらに最近では,オルガネラゲノム,特にmtDNAに対する自然選択により,得られる遺伝的多様性やその多様性の分布の空間パターンが中立的プロセスや最近の集団史を反映しないかもしれないという説もある(Rand 2001, Excoffier & Ray 2008, Nabholz et al. 2008, 2009)。むしろ,ある種について第一原理や生活史パラメータから予測することが難しい系統特異的な突然変異率が,少なくとも鳥類と哺乳類では,種を超えた遺伝的多様性の変動を予測する最良の要因であるように思われる。自然選択もまた,種内のミトコンドリア多様性,また,mtDNAハプロタイプもしくはコドン分布と緯度もしくは熱環境との関係の重要な決定要因としても浮上しており,中立なマーカーを通した中立多様性を理解する努力を損なう可能性がある(Gerber et al. 2001, Ballard & Whitlock 2004, Ribeiro et al. 2011, Jobling 2012, Ballard & Pichaud 2014, Morales et al. 2015)。集団や種内の遺伝的多様性は必ずしも系統地理学研究の主要な焦点ではないが,集団史の基本的な記述子であることには疑いがなく,それを支配する力は我々の注意を喚起するものである。
動物の系統地理学において核ゲノムを初めて扱ったのは,1990年代初頭のPCR増幅核DNA配列とマイクロサテライトによるものであった。二倍体核遺伝子は通常PCRで増幅され,直接(つまりクローニングを行わずに)配列決定が行われたが,その際,ヘテロ接合個体からのPCR産物を構成する核ハプロタイプの位相 phase をどのように決定するかについて,多くの議論があった(Palumbi & Baker 1994, Hare & Palumbi 1999)。核アリルの位相は重要である。なぜなら,たとえ数百塩基対のPCR産物であっても,位相を決定して初めて,集団内または連結部位内のアリルを首尾よく解析することが可能になるからである。今日でも,特にPCR増幅された核遺伝子を系統学に用いる場合,核アリルの位相はしばしば無視される。おそらく,分岐の激しい種を比較する際には重要視されないからであろう。組換えも認識しなければならないが,これは検出可能な組換えが観察されないDNAトラクトを決定することで達成されることが多い。組換え事象の検出は,配列内の部位間の系統的不一致に注目したソフトウェアや,遺伝子座内または遺伝子座間の部位間の連鎖不平衡の推定によって,しばしば達成された(Hudson & Kaplan 1988)。遺伝子樹を構築する際,あるいは遺伝子座内の部位間の完全な連鎖または部位間の完全な独立性を必要とする集団パラメータを推定する際には,前提条件に違反しないよう,例えばアラインメントのうち組換えの検出が不可能なセクションのみを保持するなど,組換えをテストして対処することが重要であったし,今もそうであり続けている。
配列データを解析する具体的な方法は,PCRの技術的限界に大きく制約された。通常,データセットはそれぞれ数百塩基対ほどの数個の遺伝子座からなり,この特定の形式を中心にソフトウェアのエコシステムが出現してきた。核とミトコンドリアDNA の間の不一致は,系統学的および系統地理学的分析(例えば Godinho et al. 2008),特に交雑地帯の研究において研究者が直接観察できるようになったことで,前面に出てきた。また,不完全な系統選別 incomplete lineage sorting の影響は,少数の遺伝子座を用いた解析でも容易に確認することができた。核遺伝子のPCRはまさに総力戦であり,アッセイされる遺伝子座の数は,実施されるPCR実験の労力と数に正比例していた。系統地理学における(PCR)核時代の頂点(Balakrishnan et al. 2010)には,数十の遺伝子座が含まれ,遺伝子座の数が増えるにつれて人口統計パラメータの推定値の不確実性が減少することが証明されていた。また,集団遺伝学の理論もほぼ同じことを示唆していた。例えば,単一集団内の遺伝的多様性を推定するための最適なサンプリングスキームは,個体数(アリルの数)や遺伝子座の長さを犠牲にして,遺伝子座の数を最大化することだと一般に考えられている(Nei & Roychoudhury 1974, Pluzhnikov & Donnelly 1996, Felsenstein 2006, Carling & Brumfield 2007)。しかし,遺伝子フローによって部分的につながった複数の個体群から遺伝的パラメータを推定するための最適なサンプリングスキームについては,意外にもまだ十分に研究されていないのが現状である。PCR時代には,予算の制約やサンプリングできる個体に限りがあることから,サンプリングする個体数または集団数とアッセイする遺伝子座の数との間にトレードオフの関係が存在した。このトレードオフは,次世代シーケンサーの登場により,部分的に解消されるだろう。
マイクロサテライトやその他の単純配列反復配列も,1990年代に系統地理学の分野に登場した。その発見(Tautz & Renz 1984, Jeffreys et al. 1985)からわずか10年後のことである。最初は自然集団における親子関係の研究に広く用いられたが(Burke et al. 1989, Gyllensten et al. 1990),当然のことながら,これらのマーカーは系統地理学に野火のように広がった。実際,マイクロサテライトは,系統地理学の本来の精神,特に系統に焦点を当てた系統地理学の重要な要素を捉えていないにもかかわらず,歴史的に系統地理学で最も広く使用されている分子マーカーである。その人気は,その超変異性から理解できる。これほど多くのアリルをもち,高い解像力をもつ可能性のあるマーカーに誘惑されるのはたやすいことである。肯定的な面では,マイクロサテライトは文字通り何千もの種の集団動態史について疑いようのない洞察をもたらし,系統地理学を拡大し,集団遺伝学,景観遺伝学,さらには行動生態学などの姉妹分野との統合と相乗効果に寄与してきた。また,段階的突然変異モデルを仮定すれば,アリル間の関係についてもある程度の情報をもち,原理的には個体群の分岐のタイムスケールを最近のものとより古いものとを区別する能力を持っている(例えば,FSTとRSTの比較など)。この論理から,マイクロサテライトは分岐年代推定にも有用であるとする著者もいる(Sun et al. 2009)。一方,マイクロサテライトの有用性と中立性の前提を再評価することを求め,系統地理学におけるこれらのマーカーへの高い熱意に疑問を呈する著者もいる(Brumfield et al. 2003, Morin et al. 2004, Zink & Barrowclough 2008, Edwards & Bensch 2009, Zink 2010)。Morin et al. (2004)が言うように,「(マイクロサテライトの)高い情報量は,高い突然変異率の結果であり,その代償を支払うことになる」のである。マイクロサテライトの系統学上の課題および欠陥については,他でも広く検討されており(Zink 2010, Albayrak et al. 2011, Perktaş et al. 2015),ホモプラシーが大きく,変異数の推定が困難であること,頑健な系統解析ができないため,系統地理学と系統学の連続性がほとんどなくなること,ヌルアリルが頻繁に出現すること,mtDNAなどの配列ベースのマーカーとの比較が困難なことなどが挙げられている。マイクロサテライトの欠点としてあまり認識されていないが,単純配列反復配列の中には実際には機能をもつものがあり,微生物と真核生物のゲノムの両方でしばしば遺伝子制御に関与していることから,選択の対象になりうるという明確な証拠がある。この最後の批判は,SNPを含む他の種類のマーカーにも当てはまることは間違いないが,マイクロサテライトの利用者が頻繁に中立性を訴えるのは,このようなマーカーの機能的役割を示す例が増加しているためだろう(Liu et al. 2000, Metzgar et al. 2000, Sureshkumar et al. 2009, Tremblay et al. 2010, Grover & Sharma 2011, Gao et al. 2013)。
マイクロサテライトを断固として擁護する人々がまだいることは間違いなく,我々もSNP,配列に基づくマーカー,もしくはマイクロサテライトに代わる他のマーカーは非難されるべきものでないと言うつもりはない。系統地理学における配列に基づくマーカーやSNPに対する主な批判は,そのようなマーカーの数が少ないことや多型性が低いことである。これらの批判はPCRの時代には有効であったかもしれない。しかし,次世代シーケンサーによる解析が可能になった現在では,これらの批判はもはや意味をなさない。一方,近年,マイクロサテライトの遺伝子座の数は増加しているが,次世代シーケンシングアプローチでマイクロサテライトを標的とした変異をアッセイしようとする試みは知られていない。次世代シーケンシングアプローチでマイクロサテライト遺伝子座を分離し,その後PCRによる変異のアッセイを行う方法はかなりの成功を収めている(Abdelkrim et al. 2009, Perry & Rowe 2011, Singham et al. 2012, Curto et al. 2013, Taguchi et al. 2013)。しかし,実際の変異のアッセイとPCRベースのアッセイを超えるスケールアップは,我々の知る限り,系統地理学研究においてマイクロサテライトのために最近開発されたばかりである(ただし,Fordyce et al. 2011, Raposo et al. 2015, Suez et al. 2015を参照)。この技術的なギャップは,コミュニティがマイクロサテライトのスケールアップに高い優先順位を置いていないことを示唆していると思われる。Garrickら(2015)は最近,「他のクラスの分子マーカーと比較して,DNA配列ハプロタイプと一塩基多型(SNPs)は,学問(系統地理学)に最も関連する時間スケールで動作し,歴史的事象とプロセスについてより多くの情報を提供するはずだ」(Garrick et al.2015)と宣言している。我々はこの声明に全面的に同意するが,特に近縁種,絶滅危惧種,ごく最近分岐した個体群の比較では,コミュニティの多くが選択権を与えられてもなおマイクロサテライトを好む可能性があるだろう。このような傾向があるのは,一部の研究室が次世代シーケンサーをまだ導入していないことが一因と思われる。しかし,マイクロサテライトはその超変異性により,特に大量にアッセイできる場合は,多くの文脈でSNPよりも有利であるという認識によるものかもしれない(Becquet et al. 2007, Kwong & Pemberton 2014)。
我々は,系統地理学で使用される方法論とマーカーの変化が選択 choice によるものか,あるいはむしろ遺伝子座の数を増やすために採用された技術の利用可能性によるものかを見極めようとした。我々はGarrickら(2015)の研究とパラレルなものとして,系統地理学でマイクロサテライトを使用し,系統地理学研究の主要な出口であるMolecular Ecologyに掲載された397の論文のアブストラクトを読んで調査を行った(図1,方法については凡例参照)。Garrickら(2015)の調査は,508の単一種データセットについて報告した370の論文からなり,やや予想外にSNPに焦点を当てたので興味深かった。一方,我々の直感では,核遺伝子座の中で,最近までマイクロサテライトが系統地理学の主役であった。ミトコンドリアDNAのみを用いた研究(合計280件,サンプルの全SNP研究の73.5%を占める;図1参照)を分析から除外すると,マイクロサテライトを用いた系統地理学の研究数は核SNPを用いたものと同等であり,時にはそれを超えることもある(図1A)。興味深いことに,少なくともMolecular Ecology誌上では,mtDNAのみを用いた系統地理学的研究は2007年以降減少しているようである。この減少は,他のタイプの遺伝子データに対する分野内の嗜好の変化,あるいはmtDNAのみに依存した研究の掲載に対する雑誌の嗜好の変化を強調しているのかもしれない。さらに,2013年には,核内SNPを使用した研究がマイクロサテライトを使用した研究を上回り始め,シフトが起きていることを示唆している。この増加は,次世代シーケンサーによるものばかりではないようだ。次世代シーケンサーが用いられたのは,今回のサンプルでは8件の研究のみだった。このことは,SNPsが,新しい技術とは無関係に,おそらくコンセプトの進歩や利用可能なソフトウェアによって人気が高まったことを示唆している。今後5年間で,系統地理学におけるこれらの様々なマーカーの利用が相対的にどのように変化するかは興味深いところである。Molecular Ecology誌が系統地理学の分野で卓越していることを考えると,ここで観察された傾向は,この分野の他の部分でもいずれ見られるようになる傾向を示している可能性がある。
https://scrapbox.io/files/62678b49f650a800232a6c46.png
図1:Molecular Ecology誌の系統地理学に関する論文の調査から得られた分子マーカー使用の経年的な傾向。
(A)オルガネラDNAマーカー,マイクロサテライト,核配列ベースマーカーを用いた1992年から2013年の論文数を,左上のキーに従ってコード化してプロットしたもの。核配列ベースマーカーのカテゴリには,RAD-Seq,シーケンスキャプチャー,または他の次世代シーケンサー技術を使用してSNPをジェノタイピングする2013年の8つの研究が含まれており,核SNP研究の残りはPCRアプローチを使用していた。核SNPとオルガネラマーカーを用いた論文のデータはGarrickら(2015)から引用し,その研究との比較を容易にするために3年ごとに提示している。全体として,サンプリングした期間中に,mtDNAまたはcpDNAからのSNPsのみを使用した研究が280件,核SNPsを使用した研究が101件,核マイクロサテライトを使用した研究が97件あった。核SNPsとマイクロサテライトの両方を用いた研究は13件あったが,これらはプロットから除外した。マイクロサテライトを用いた研究のうち63件,核SNPを用いた研究のうち79件はmtDNAまたはcpDNAのSNPも含んでおり,これらはプロットに含めた。
(B)核マイクロサテライトを用い,Molecular Ecology誌から出版された論文総数の推移(1992年から2014年まで毎年サンプリング)。この318件の研究には,mtDNAやcpDNAのSNPや核のSNPなど,他の種類のデータを用いたものも含まれる。Molecular Ecology誌全体の成長を示す指標として,1年ごとのページ数を黒線で示した。マイクロサテライトを用いた論文の全リストは補足資料を参照。
次世代シーケンシングと系統地理学における配列ベースマーカーの台頭
Next-generation sequencing and the rise of sequence-based markers in phylogeography
系統地理学者は,多型度は低いものの,SNPがゲノム上でマイクロサテライトよりもはるかに一般的であることを長年にわたって評価してきた(Brumfield et al. 2003)。しかし,SNPの偏在性を生かすような規模での利用は不可能ではないにせよ困難であったため,この指摘はほとんど無意味なものであった。次世代シーケンサーの出現により,系統地理学の振り子が大きくなり,SNPsや配列に基づくマーカーに有利な方向に一旦揺り戻る可能性が高い。RAD-seqのようなゲノム縮約法の採用は,系統地理学に十分な数のSNPsをもたらすだけでなく,全ゲノムリシーケンスよりもさらにSNPsの使用を促すことになるであろう。ヒト(Altshuler et al. 2010, Reich et al. 2010, Hammer et al. 2011, Li & Durbin 2011, Stoneking & Krause 2011)やショウジョウバエ(Yukilevich et al. 2010, Campo et al. 2013, Duchen et al. 2013, Reinhardt et al. 2014)といったモデル種では既に全ゲノム系統地理研究は標準となっており,この段階になれば研究者が選択可能なマーカーの種類も増えるだろう。それまでは,系統地理学の焦点を配列ベースのマーカーやSNPに移すことで,次世代シーケンサー法は多くの生産的な仕方で系統地理学研究を安定させつつ統合していくと期待される。これまでSNPが有益とされてきた多くの理由,すなわち,SNPはオルガネラゲノムや研究間の変異をより自然に比較できること,また,遺伝子座内での組換えという課題はあるものの,系統解析への自然な橋渡しになることから,我々としてみると,これらは系統地理学にとって好ましい傾向である。
系統地理学における次世代シーケンシングアプローチの種類と結果
Types and consequences of next-generation sequencing approaches in phylogeography
次世代シーケンシングは,マイクロサテライト遺伝子座を分離するための使用とは別に,主に2つの方法で系統地理学に浸透している。すなわち,RAD-seq(100 bp程度の短いマーカーを生成し,典型的にはローカスあたり1〜数個のSNPをもつ;異なるRAD-seq法についての総説はPuritz et al. 2014を参照)およびターゲットキャプチャー法(エクソンや超保存配列(UCE)およびそれらの多型性近傍領域など,すでに定義された遺伝子座のセットを対象とするために使用できる;Faircloth et al. 2012, Smith et al. 2014)である。トランスクリプトームシーケンスとアンプリコンシーケンスはどちらも系統地理学に有用であることが証明されているものの (Hedin et al. 2012, O'Neill et al. 2013),トランスクリプトームシーケンスは,比較的保存されているが選択を受けている可能性が高い遺伝子座に焦点を当てるため,純粋な系統地理学的調査(選択中の遺伝子座の発見とは対照的;下記参照)には直接はあまり利用されないと思われ,アンプリコンシーケンスは,かかる労力とアッセイできる遺伝子座の数の少なさから,系統地理学者にとっては最終的にあまり魅力的ではないと我々は予測している(ただし,McCormack & Faircloth 2013を参照)。
新たに登場した「コア」アプローチであるTargeted Enrichment(大貫注1)とRAD-seqは,それぞれが生み出すデータの種類から,異なる方法で系統地理学を配列ベースのマーカーに方向転換させることが期待される(Lemmon & Lemmon 2012, McCormack et al. 2012, 2013) Targeted enrichmentアプローチでは,数百から数千塩基対に及ぶ個々の配列ベースマーカーに組み入れることができるデータが得られ,結果としてハプロタイプまたはコンセンサス配列が得られ,その中には原理的に系統解析の対象となり得る数多くのSNPが存在する(Lemmon & Lemmon 2013)。一方,RAD-seqでは,従来の系統解析手法では解析できないほど短い遺伝子座が得られる。そのため,研究者は通常このようなRAD-lociから単一または複数のSNPを抽出し,それらを個々のSNPとして解析している。この2つのアプローチは,多くの点で対照的な,系統学と従来の系統地理学の架け橋となるとともに,将来的には補完的な分析手法となることが期待されている。例えば,系統地理学的研究のためにTargeted Enrichmentアプローチで得られた遺伝子座は,概ね遺伝子樹を推定する標準的な系統学的手法で解析できるため,古典的な系統地理学への自然な橋渡しとなる。対照的に,RAD-seqによって生成されたSNPは,集団または種の系統関係(「種樹 species trees」)を推定するために使用することができ,実際に初期の例では連結アプローチが適用されましたが(Emerson et al. 2010, Merz et al. 2013),現在これらのマーカーは,古典的遺伝子木を迂回して,種樹を直接推定するために使用されている(Bryant et al. 2012, Chifman & Kubatko 2014, Rheindt et al. 2014)。これら2つのアプローチは,時に異なる解析セットを必要とすることがあり,targeted enrichmentアプローチによって生成されるような連鎖したSNPのためのツールキットは,SNPを解析するために利用できるものよりもずっと奥が深いかもしれない。
(大貫注1)Target Enrichment アプローチとは,目的領域だけをキャプチャーして集めてからシーケンスする方法。ウェブにilluminaの説明などがある。
どちらのコアアプローチも,SNP(個々の遺伝子座で連鎖しているかしていないかはさておき)を利用に沿って系統地理学を正面から位置づけることになるが,古典的な「遺伝子樹」系統地理学や分析アプローチとの連続性の違いは重要である。遺伝子樹は,この系統地理学的変遷における肝(原文はlynchpin)かもしれない。遺伝子樹は系統地理学の起源における中心的存在であるにもかかわらず(Avise et al. 1987),多くの人が,結局のところ,遺伝子樹は系統地理学における厄介なパラメータであり,どちらかといえば,遺伝子ではなく集団や種という重要な分析レベルや主要興味から目をそらすことになりかねないと指摘している。この意味で,RAD-seqは,系統樹やハプロタイプネットワークからようやくコミュニティを概念的に解放するという実用的な利点を持つかもしれない。遺伝子樹を作成し解釈する能力や傾向は,系統地理学におけるモデルベースのアプローチと,例えば入れ子型クレード解析 nested-clade analysis によって推進された,遺伝子樹のより直接的な解釈との間の対立のように,系統地理学における激しい論争を引き起こす結果となった(Nielsen & Beaumont 2009, Beaumont et al. 2010, Templeton 2010)。RAD-seqとtargeted enrichmentが提供する分析手法が,今後10年間の系統地理学にどのような影響を与えるかは興味深いところである。両手法で得られた膨大な数の遺伝子座に後押しされて,分野全体が,このようなデータセットに明らかに適しているモデルベースのアプローチを採用する方向に進むかもしれない。
次世代ゲノム縮約法の系統地理学への応用
Power of next-generation genome subsampling methods for phylogeography
RAD-seqやターゲットキャプチャーリシーケンス(UCE解析を含む)などのゲノム縮約法は,集団構造,種の区切り,歴史集団動態などの中立プロセスの系統地理学的調査において非常に有望であると言える。系統地理学では従来,遺伝子座よりも個体や集団のサンプリングが重視されてきた(Brito & Edwards 2009, Garrick et al. 2015)。この偏りは,系統地理学の主な動機の1つである,種内の生物多様性の新しい系統を発見するための自然で理解できる結果である。しかし,個体だけでなく,遺伝子座についてもロバストにサンプリングすることが,系統地理学のパラメータ推定値の精度を高め,遺伝子座間の確率的変異をよりよく考慮するために不可欠であることが,現在ではより理解されている(Beerli & Felsenstein 1999, Edwards & Beerli 2000, Jennings & Edwards 2005, Felsenstein 2006, Carling & Brumfield 2007)。したがって,RAD-seq,UCE解析,ターゲットキャプチャー法などの手法によって明らかになる遺伝子座の数は,典型的なPCRベースの研究で捉えられる遺伝子座の数が比較的少ないことを考えると,歓迎すべきことだと言える。系統地理学の主要な目的の1つは,ゲノムデータを用いて集団の歴史を記述することであることを考えると,たとえ12個の遺伝子座(PCRベースの系統地理学の全盛期には典型的)であっても,典型的なゲノム内のすべての染色体にわたる歴史の多様なシグナルを捉えることができないのは驚くべきことではないだろう。RAD-seqの場合,DNA断片を分離するために使用する制限部位に変異を経験した古いハプロタイプに対するこの技術のバイアス,つまり遺伝的変異の推定を損なうバイアスに関わる深刻な問題がある(Arnold et al. 2013)。さらに,非モデル種からライブラリーをアセンブルするプロセスでは,多くの場合,何らかの類似性の閾値によってシーケンスリードをグループ化する必要がある(大貫注2)。これらの閾値の選択は必ずしも単純なプロセスではなく,高度に分岐した対立遺伝子は,その差が予め設定された類似性の閾値を超えるか,個体ごとの遺伝子型マトリックスにおける欠損データの割合を増加させるため,下流の解析前に不注意に省かれることがある(Huang & Knowles 2014, Harvey et al. 2015a)。それでも,他の次世代ゲノム縮約アプローチの場合,次世代アプローチによって明らかにされるバリエーション(約100座のアンプリコンシーケンスであれ,典型的なRAD-seq研究が明らかにする数万個のSNPであれ)は,ほとんどの種の基本的集団史を理解するには十分すぎるほどだと思われる。
(大貫注2)Stacksでいうところの何にあたるだろうか。KIくんが色々試していた部分にあたりそうだ。
Harveyら(2015b)は最近,系統地理学的に深い断絶がある新熱帯の鳴禽類 songbird(スズメの仲間)の集団動態パラメータ(有効集団サイズ,分岐時間,移動率)と種史を推定するために,配列ベースのマーカーの数と長さが異なるデータセットの系統地理学への解像度を比較した。彼らは,遺伝子座の数を5000まで増やすと研究対象の特定の人口動態史の解像度が上がるが,それ以上増やすとほとんど効果がないことを発見した。さらに,遺伝子座の長さを500bp以上にしても研究対象のパラメータに対する解像度のさらなる向上は得られないこともわかった。このことから,RAD-seqなどのゲノム縮約法によって得られる遺伝子座の数は,さまざまなスケールで集団史を解明するのに十分である可能性があることが示唆された。実際,RAD-seqやシーケンスキャプチャーで作成したデータセットを用いた実証研究の初期ラウンドは,通常2000–30000のオーダーのSNPsまたは配列マーカーで,これまでのところ,非常に満足できる結果を出したように見える。こうした実証研究は,遺伝子流動を制限する環境および地形障壁に対応するゲノム変異のフィットに関して,我々の理解を大幅に向上させるような未発見の系統地理的系統を明らかにしてきている(例えば,Alcaide et al. 2014, Harvey & Brumfield 2015)。我々はHarveyら(2015b)と同意見で,ゲノム縮約法は,系統地理学の予見可能な将来において,最終的に適切なレベルのゲノムの詳細を提供する可能性が高いと考える。
自然選択と,次世代シーケンサーが可能にする系統地理学の領域拡大
Natural selection and the expanding domain of phylogeography enabled by next-generation sequencing
古典的な系統地理学では,種の中立的な集団動態史に焦点が当てられてきた。この目標は,オルガネラゲノムや核遺伝子の多座解析の研究によって促進されてきた。しかし,一度に数千の遺伝子座のゲノムをスキャンできるようになったことで,系統地理学の対象は中立的な集団動態史にとどまらず,選択下にある遺伝子座の発見にまで拡大されたのである。これまで見てきたように,SNPを含む多様な核マーカーの出現により,系統地理学は当初の遺伝子系統樹への焦点を緩和した。純粋論者は,系統地理学の当初の定義にはミトコンドリア遺伝子系統樹にかなりの焦点をあてており,頻繁に組換えが生じる核マーカーの使用は,本来の系統地理学の定義を拡大するものだとさえ言うかもしれない(Avise et al.1987)。同様に,変異を大規模に調べることができるようになり,例えば自然選択がより多く存在すると考えられるトランスクリプトームやエクソームにおける変異(Marra et al. 2014など)に注目することで,系統学は自然選択などのテーマを取り込むことができるようになった。この変化は,それ自体魅力的ではあるが,間違いなくAviseがこの分野に対して最初に描いたビジョン(Avise et al.1987)にはなかったものである。しかし,多数の遺伝子座を調査し,地理やゲノムにまたがる対立遺伝子や対立遺伝子頻度の確実な分布を推定することができるため,系統地理学が自然淘汰の研究を取り入れる可能性はすぐに出てくる。実際,これまでの系統地理学で最も統合的な研究のいくつかは,強固な地理的サンプリングと歴史集団動態の推論を自然選択の調査と組み合わせたものである(Deagle et al. 2012, Jones et al. 2012a, b, Pearse et al. 2014, Schielzeth & Husby 2014, Wallberg et al. 2014)。では,系統地理学と集団遺伝学は同義語になってしまったのだろうか?そうではないだろう。系統地理学と集団遺伝学を区別する属性があるとすれば,それは種内の個体群のしっかりとした地理的サンプリングである。このようなサンプリングは間違いなく系統地理学の特徴だが,質の高い集団遺伝学の研究においてさえ,必要とされない,あるいは達成されないことがよくある。
Lewontinのパラドクスと種内の遺伝的変異
Lewontin's paradox and genetic variation within Species
集団遺伝学を用いて淘汰の歴史を持つ遺伝子座を発見することには長い歴史があり,Lewontin & Krakauer (1973)がFST異常値が淘汰されている遺伝子座の特定に有用であることを示したのが始まりとされている。現在では,FST異常値の利用は一般的になり,高いFSTを選択の明確なシグナルと解釈することには注意が必要ではあるものの(Turner & Hahn 2010, Cruickshank & Hahn 2014),遺伝子座の分布を研究できるようになったことで,特に基盤となる人口動態史を考慮して実施した場合には,FST異常値の利用は有用なツールとなる(Johnston et al. 2014, Lotterhos & Whitlock 2014)。最近の研究によると,核ゲノムであっても,そして全ゲノムスケールでもトランスクリプトームスケールでも,自然選択の影響を完全に回避することは不可能である可能性がある。例えば,ある種の核ゲノムの全体的な多様性のレベルを,系統地理学者はしばしば単一集団についてπ = 4Nμの式で要約される歴史的有効集団サイズの中立的指標であると考える。しかし,核遺伝子の多様性の種間における幅の小ささ(通常は2桁の範囲に収まってしまうと考えられ,しばしば「Lewontinのパラドクス(1974)」と呼ばれる)は,集団遺伝学者にとって大きな課題であり,系統地理学にとっても深い意味を持つものであった。このパラドクスは,選択と遺伝的浮動の相互作用を重視し,厳密な中立説よりも利用可能なデータに適合すると思われるほぼ中立説を発展させる大きなきっかけとなった(Ohta 1992, Ohta & Gillespie 1996)。積Nsの絶対値が1よりかなり小さいほぼ中立の領域を仮定することで,ほぼ中立説(木村の厳密中立説(Kimura 1968, 1983)とは明らかに異なる)はこのパラドクスの一部を説明することができるようになったのである。これまで,主要なモデル種における選択係数の分布は数多く推定されてきたが(Keightley & Eyre-Walker 2010),最近まで,幅広い種にわたってこれらの考えを実際に検証するための有力なデータはほとんどなかった。
集団ゲノミクスに関する最近の2つの比較研究は,Lewontinのパラドクスに関連し,系統地理学にとって重要な意味をもつ。Corbett-Detigら(2015)は,40の真核生物のゲノム全体の遺伝的変異を網羅的に調査し,種間の遺伝的多様性(π)の範囲が小さいことは,集団規模の大きい種では自然選択が遺伝的変異を減らす能力が高いことによって一部説明できるという結論に至った。この論文の意味は,ある種の種,特に個体数の多い種では,選択的スイープ selective sweeps が一般的で遺伝的浮動が比較的弱いため,ゲノム中のほぼすべての部位で,選択が中立的変異のレベルを低下させる可能性があるということである。この研究は,広く分布する種の系統地理学的研究にとって深い意味を持つ。驚くべきことに,系統地理学がmtDNAに期待するようになった自然選択のシグナルが,核ゲノムにも,特に大きな個体群を持つ種の全体的多様性にも,適用されるかもしれないのである。
もう一つの関連する研究として,Romiguierら(2014)は最近,高次分類群にわたる様々な種について,トランスクリプトームにおけるバリエーションを調査しました。Corbett-Detigら(2015)による研究と同様に,この研究も包括的ではあるが,主な焦点が集団史ではなく全体的な変動量にあったため,系統地理学とはみなされない。いくつかのケースでは,種ごとに複数の個体群がサンプリングされ,それぞれの種内の遺伝的変異の多くが捕捉されたかもしれないが,どちらの研究でも,一般的な地理的サンプリングは系統地理学とみなされるほど強固なものでなかった。Romiguierら(2014)は,トランスクリプトームのばらつきの量(π)は,地理的範囲や厳密に中立な人口動態の他の側面ではなく,生活史属性と長い寿命によって最もよく予測されるという驚くべき結論に達しました。長寿の種やK-選択的な生活史特性を持つ種は,r-選択的な生活史特性を持つ種よりも小さな集団を維持できる傾向があり,その結果遺伝的多様性も小さくなる。一方,r-選択的な種は,遺伝的多様性が高く,大きな個体群を持つため,不安定な生息環境でもコロニーを形成し,持続的に生息できる傾向がある。この仮説は,生態学と生活史が集団遺伝的変異の原動力であると考えるので,生態学者にとってはメリットがあるかもしれないが,集団ゲノム科学の観点からはあまり納得のいくものではない。特にタンパク質コード領域における種内遺伝的変異を制御する大きな力と伝統的に考えられてきた有害変異に対する負の選択でさえ,種内の生活史とdn/ds(非同義/同義な塩基置換の比率)の正の相関を説明するために潜在的に重要であると少し言及しただけというのは驚きである。この場合,長寿のK-選択的な種の個体数が少ないほど,ほぼ中立説が想定するように,小さな個体群における有害変異の固定が進むため,(主に高いdnによって)高いdn/dsが生じる(Weber et al.2014も参照)。しかしRomiguierら(2014)は,同義置換の全体的なレベルは有効集団サイズによって大きく左右されると示唆し,その結果,生活史変動の中立的な帰結とみなした。今後,多様な種の詳細な系統地理学的解析の一環として,ゲノムワイドな多様性の測定を通じ,この研究の仮説を検証することが重要である。
系統地理学における選択,組換え,ヒッチハイク
Selection, recombination and hitchhiking in phylogeography
上記の2つの研究は,ゲノムワイドなデータについて系統地理学者がどのように考え始めているかを示す重要な対照となるものである。特に,連鎖不平衡(LD)の問題とゲノムワイドなヒッチハイクの可能性は,全ゲノム系統地理学の時代における変異のパターンに影響を与える重要な要因として浮上している。生態学と進化に関するいくつかの重要な新興モデル,例えば,トゲウオ,ミツバチなどのグループ(Jones et al. 2012a, Wallberg et al. 2014)を除けば,これまでのところ,非モデル種の系統地理学では,地理的にサンプルされた集団間のゲノム変異に対する連鎖の影響はあまり扱われていない。PCR時代には,遺伝子座の独立性を確認するために,アッセイ可能な遺伝子座内または遺伝子座間のLDレベルを測定することもあったが,系統地理学者は,一般に,ゲノム全体の変異に対するヒッチハイクの効果について意味のある洞察を得られるほど包括的なデータを利用することができなかった。LDのレベルは,遺伝的浮動や集団ボトルネックなどの中立的プロセス,選択的スイープや平衡選択などの選択的プロセス,組換え率や突然変異率などの遺伝的プロセスなど,多くの要因によって影響を受ける可能性がある(Slatkin 2008)。集団組換え率(ρ=4Nc)は,ヒト,マウス,ショウジョウバエの集団では多くの推定値があるのに対し,モデル種以外では比較的少ない(Smukowski & Noor 2011)。
集団遺伝学者は何十年も前からLDを測定しており,ゲノムのサンプリング密度やマーカーが同じ染色体にあるか異なる染色体にあるかには関係なく,任意のマーカーペア間のLDすなわちr2値を計算することができる。ゲノム時代以前,ゲノムをまばらにしかサンプリングしない研究で遺伝子座間のLD値を計算する場合,その動機はしばしば自然淘汰の作用を研究するためであった。しかし,これは当たり外れが大きく,LDを計算した候補遺伝子が選択的プロセスに関与していない場合,結果は芳しくないものになることが多かった。これに対し,ゲノムをより高密度にサンプリングできるゲノム時代には,選択候補遺伝子を知る必要は原理的にはない。LDを利用することで,測定した遺伝子座が選択されているかどうかを予め当て推量することなく,実際に選択の対象となった遺伝子座を発見することができる(Slatkin 2008)。ヒッチハイクによるゲノム全体にわたる変異の相関パターンは,選択に応答している候補遺伝子を直接測定することなく候補遺伝子のセットを作成するために利用されることが多くなってきた。候補遺伝子は通常,直接測定したマーカーに物理的に近いか,同じ連鎖ブロックにあり,実際の選択のターゲットへのヒッチハイクが,測定したSNPsに高いFSTなどの中立性からの逸脱を引き起こしていると仮定される。このプロトコルは,セレクションマッピングまたはアソシエーションマッピングと呼ばれ,環境圧力または他の選択的圧力に反応する可能性のある新しいモデル種において,何百もの候補遺伝子を生み出す結果となった(Hohenlohe et al. 2012)。また,2つの種や集団が交配する際に生じる高いLDを利用する研究も増えている。それぞれの親集団に由来する染色体ブロックを用いて,交配種におけるそれらの集団の表現形質の基盤となるゲノム領域を同定することができるのである。この方法はしばしばアドミクスチャーマッピングと呼ばれ,ヒトで広く用いられ,非モデル種で用いられることも増えている(Slate & Pemberton 2007, Pallares et al. 2014)。
しかし,全ゲノム時代の幕開けに際し,このようなプロトコルの実施は困難であり,立ち往生してしまうこともある(図2)。一方,RAD-seqのような方法は,多数のSNPを提供するものの,ゲノムをまばらにサンプリングしており,特に集団組換え率が高い種では,この目標に届かないことがある。セレクションマッピングによる実際の選択対象の同定ができないのは,ゲノム全体のLDレベルが非常に低く,実際の選択対象が変異が調査された最も近い中立部位と事実上リンクしていない(LDが低いか平均)ことが原因である可能性がある。その結果,アッセイされたゲノムSNP間で選択の証拠がほとんど得られず,多くの選択の標的が見落とされることになる。ショウジョウバエや多くの鳥類のような種はこのカテゴリーに入る可能性が高く,ヒッチハイクによる選択のターゲットをより確実に特定するために,全ゲノムリシーケンスが必要になるかもしれない(Backström et al. 2006; Ellegren et al. 2012, 図3参照; Backström et al. 2013)。しかし,ショウジョウバエの全ゲノムリシーケンス研究でも,特に選択が弱かったり,ごく最近だったり,常在変異 standing variation に作用していたりすると,時に結果が分かれることがある。一方,ある種の種では,最近の集団史,家畜化の歴史,あるいは全体的に低い集団組換え率のために,ゲノム全体のLDレベルがかなり高くなることがある。イヌ科の動物はこのパターンの良い例である(Fig. 3およびBoyko et al. 2010, Boyko 2011) このような場合,ゲノムをまばらにサンプリングした場合でも,数Mb離れた実際の選択対象にヒッチハイクしたことで,選択されているようにみえる部位が見つかることが多い。LDが高い場合,LDが低い場合よりも大きな染色体領域がヒッチハイクによって引きずられ,これらの大きな領域が何百もの遺伝子を含むことがある。しかし,このような状況では,候補となる遺伝子のリストがあまりに長くなり,使い勝手が悪くなる。イトヨ(Gasterosteus aculeatus)はこのカテゴリーに入るかもしれない。RAD-seq研究では,FST異常値を日常的に同定しているが,連鎖ブロック内の遺伝子リストは長くなり,実際の選択対象について曖昧な考えしか得られないことが多い(Hohenlohe et al. 2012)。また,選択事象のタイミングと強さは,ヒッチハイキングする染色体領域の大きさの調節に重要である可能性もある。また,染色体逆位はゲノムのブロックを組換えから守るため,何百もの遺伝子が高いLDに残り,実際の選択対象の同定は困難か,さらなる方法の開発なしには不可能である。RAD-seqのようなゲノム縮約法は,一般にヒッチハイクの遺伝子座をより詳細に把握することができるが,LDが高ければ,実際の選択標的を明確に特定することは全ゲノムリシーケンスですら不可能である。
https://scrapbox.io/files/62678b52254d35001d662ece.png
図2:RAD-seqなどのゲノム縮約法を用いて連鎖不平衡(LD)が低レベルまたは高レベルの種を研究し,選択下にある遺伝子座を同定することの利点と欠点。
このマトリックスは,2つの種のセットをカバーする。Y軸は,本文で説明したように,LDのレベルである。X軸には,RAD-seqアプローチでそのような種を研究するメリットとデメリットを記載した。各セルには,選択下にある遺伝子座の検索で遭遇する一般的な状況を記述した。さらなる議論は本文を参照。
https://scrapbox.io/files/62678b546907430020e6be77.png
図3:低LD種と高LD種の2つの例。
A) 北米でよく見られる鳴禽類であるハウスフィンチのHSP90a遺伝子の1500塩基対にわたるSNP間のペアワイズr2(連鎖不平衡の指標)のプロット。アリゾナ州の集団のSNPは黒,アラバマ州の集団のSNPは灰色で表示。この種は集団サイズが大きいため,集団の組換え率が高くLDのレベルが低い。Backströmら(2013)より。
B) 様々な犬種と灰色オオカミ(Canis lupus)の野生集団におけるペアワイズr2と物理的距離(キロベース(←!))の同様のプロット。LDが高い場合は数百kbに及ぶが,同じレベルのLDでもハウスフィンチの場合は数百bにしか及ばないことに注目。画像はBoyko (2011),Boyko et al. (2010)も参照。いずれの画像もクリエイティブ・コモンズ2ライセンス( https://creativecommons.org/licenses/by/2.0/ )のもとで使用。
事例:Rad-seqと自然集団におけるセレクションマッピングの出会い
Examples: Rad-seq meets selection mapping in natural populations
選択下の遺伝子座を探索するためのRAD-seqの有効性に関する我々の考え方は,我々の研究室からの最近の結果に影響を受けている。ここでは,トカゲと鳴禽類の2つのケーススタディを用いて,ゲノム縮約法による選択の検出と選択対象の同定の難しさを説明する。
グリーンアノールの適応と耐寒性の進化
Adaptation and the evolution of cold tolerance in green anole lizards
グリーンアノール(Anolis carolinensis)は,気候を介した局所適応の分子基盤を探るのに理想的な種である。この種はアメリカ大陸に生息する唯一のアノールトカゲで,約400種ある同属の中で最も高い緯度に生息している。本種の分布の北端は冬の気温によって制限されていると思われるが(Williams 1969),個体群は多くの中・高緯度爬虫類に共通する冬眠を行わない。北部の個体群は,氷点下の気温が常態化しているにもかかわらず,避難場所に退避し日光浴をすることで,冬季も活動を継続し,定期的に摂食することができる(Bishop & Echternacht 2004)。また,異なる気候の個体群では耐寒性に大きな違いが見られる(Wilson & Echternacht 1987)。最近,この種のゲノムが公開され(Alfoldi et al. 2011),地域環境に対する進化の分子プロセスを理解し,非モデル種の集団間の生理的分化に重要な役割を果たすと思われる遺伝子を特定するためのユニークな資源が提供された。この機会を利用して,我々はddRAD-seq(Peterson et al.2012)を用い,A. carolinensisゲノムの寒冷変異に関連する領域を本種の分布範囲にわたって特定した。SphIとEcoRI制限酵素を用い,A. carolinensisの自然生息域の緯度範囲にまたがる6つの個体群を代表する28個体のゲノムDNAを処理した。これらの個体について,Stacksソフトウェアパッケージ(Catchen et al. 2011, 2013)を用いて,10×以上のカバレッジで20,282個のSNPsをジェノタイピングした。種の分布範囲にわたる気温変動に関連するゲノムの領域を検索するため,各個体のジオリファレンス付き地域データを用い,Worldclimデータベース(Hijmans et al. 2005)から1年で最も寒い四半期の平均気温(BIO11)の推定値を取得した。次にRAD-seqデータセットからアレルカウントを使用し,Bayenv2ソフトウェアパッケージ(Gunther & Coop 2013)を使用してベイズファクターアソシエーションとピアソン相関を計算した。ベイズファクターアソシエーションとピアソン相関の両方で上位1 %の変異部位を,寒冷への局所適応に重要であると考えられるゲノム領域を特定する候補マーカーとして保持した (図4)。この解析の結果,72個のSNPs候補が得られたが,これらはすべてノンコーディングであった。67 %は遺伝子間領域に位置し,33 %はイントロンにマッピングされた。
(大貫注3)グリーンアノールの研究例,YAさんのオオセンチコガネの研究に似てる。
このデータセットに含まれるいくつかの遺伝子は,温度と地理的な相関を示すSNPsに近接しており,極端な温度変化にさらされる外温動物にとって大きな制約となる酸素調節に関与する可能性があることから,さらなる研究の対象になると考えられる (Portner et al. 2006, 2007)。これらの変異の一つは,Rho-associated protein kinase 2 (ROCK 2)の第1エキソンから40.8kb上流に位置し,そのシグナル伝達は肺血管系の制御に重要である(Riento & Ridley 2003, Noma et al. 2006, Seasholtz et al. 2006, Rankinen et al. 2008)。もう1つのSNPは,呼吸パターンの制御に関与する転写因子4(TCF4)の第1エキソンの上流1.46kbに存在する(Zweier et al. 2007)。グリーンアノールの温度による局所適応におけるこれらの生理学的プロセスの潜在的な役割と重要性をよりよく理解するためには,機能ゲノミクス研究が必要である。
https://scrapbox.io/files/62678b5aa9549e0023d7a1f6.png
図4:グリーンアノールAnolis carolinensisの地理的空間にわたるRAD-seq SNPバリエーションと環境変数との相関関係。
A) Bayenv2 (Gunther & Coop 2013)で計算した,RAD-seqで同定した各SNPと,種の分布域の6つの地域における1年で最も寒い四半期の平均気温の地理的空間にわたる環境的関連性。水平点線と垂直点線は,それぞれピアソン相関とベイズ因子の関連性の有意性の99 %カットオフを表している。塗りつぶした点は,両軸の上位1%に入る候補SNPを示す。
B) A.carolinensisゲノム(Alfoldi et al. 2011)の6つのアノテーション済み大染色体におけるパネルAの各外れ値SNPのゲノム位置。
伝染病発生前後のハウスフィンチ個体群の時間的進化
Temporal evolution of house finch populations before and after an epizootic
ハウスフィンチ(Haemorhous mexicanus)は北米の都市部と農村部の両方で最もよく見られる鳥の1つであり,鳥類研究のモデルシステムとして急速に普及している。急速な形態適応,性淘汰,耐病性の進化,侵入の研究において重要な位置を占めている(Badyaev et al.2012)。病気生態の研究においてハウスフィンチがユニークなのは,病原体であるMycoplasma gallisepticum (MG) との関係である。この家禽関連細菌は,1994年にワシントンD.C.地域のハウスフィンチで初めて記録された (Ley et al. 1996, Hochachka & Dhondt 2000)。MGは呼吸器に感染し,重度の結膜炎を引き起こし (Hochachka & Dhondt 2000),免疫系の病原体特異的な成分を抑制し (Bonneaud et al. 2011),炎症反応を促進する (Gaunson et al. 2006, Mohammed et al. 2007, Adelman et al. 2013)。この病原体は東部の集団に急速に広がり,1998年までに地域全体で深刻な減少を引き起こし,一部の地域では減少幅は60%にも達した(Dhondt et al. 1998)。12年間曝露された東部個体と歴史的に曝露されていない個体の遺伝子発現反応を比較した感染実験では,遺伝子発現,病害抵抗性(Bonneaud et al.2011, Bonneaud et al.2012 ),病害耐性(Adelman et al.2013)の急速な進化が示唆された。
我々は,ddRAD-seq (Peterson et al. 2012) を用いてゲノム全体のSNPデータセットを収集し,MGを介した選択の痕跡を持つゲノムの領域を経時的に同定した。Anolis研究と同様,ゲノムをSphIとEcoR1で処理し,276-324塩基対長の断片を選択して,ゲノム上にランダムに散在する相同座標 homologous loci を回収した。今回の予備調査では,アラバマ州の疫病発生前(1990年)の集団から5個体,疫病発生後(2003年)の集団から6個体,計11個体(22染色体)だけをサンプルとした。HiSeq Illumina 2500の単一レーンでRAD-seqライブラリをランし,合計約800万のペアエンドリード(各150 bp,約400万ペア)を生成した。Stacksパイプライン(Catchen et al. 2011, 2013)を用い,2,223の遺伝子座から12,000以上のSNPsをジェノタイピングした(図5)。これらの期間中に品質閾値を達成した7,260のSNP比較のうち,129のユニークな遺伝子座から167(2.3 %)の対立遺伝子頻度の有意なシフト(Fisherの正確確率検定,p値 < 0.05)を見いだした。これら129遺伝子座のうち,68.2%は遺伝子間領域に,29.5%はイントロンに,2つの遺伝子座はエクソン内に,1つは3′UTR領域内に位置している。これらの遺伝子座はいずれもボンフェローニ補正で有意性を保っているが,別産地からの個体を加えてさらに大きなサンプルサイズとすることで,検出率が向上すると考えられる。このSNPsコレクションのFST値は0.208から1(固定差)である。これらのFSTの高い領域は,様々な機能を持つ遺伝子内またはその近傍に存在する。ある遺伝子,PPP2R2Cは,ヒトの免疫経路に関与しており,FSTが1のSNPから13kb離れたところに位置している。
これら2つの研究は,RAD-seqのようなゲノム縮約法を用いて脊椎動物ゲノムの選択を検出し候補遺伝子を同定することの可能性と課題を示している(Tiffin & Ross-Ibarra 2014)。どちらの研究でも,Rad-seqのSNPのほとんどは近傍の遺伝子との関係が不明な非コード領域に含まれていた。グリーンアノールの例では,環境変数と相関するSNPに最も近いと同定された候補遺伝子が,タグ付けに使われたSNPからかなり離れていることが多かった。ハウスフィンチの例では,疫病発生前後の集団の比較において,FST異常値の数が比較的少なかった。これは,おそらく,一般的に家禽類で観察されるLDのレベルが小さいため,また,確かに我々のサンプルサイズが小さいためである。組換え率に関して研究されている数少ない鳥類では,常染色体における組換え率はかなり高く,焦点となるSNPから離れるにつれてLDのレベルは急速に低下すると考えられる(Backström et al. 2006, Bullaughey et al. 2008, Janes et al. 2009, Li & Merila 2010, Ellegren 2014)。我々は,アカエリクロバト(Agelaius phoeniceus)やハウスフィンチなどの鳴禽類集団のLDが,数百塩基対を超えると急速に低下することを発見しており,この状況はショウジョウバエの集団と非常に似ている (Edwards & Dillon 2004, Backström et al. 2013)。このような種では,LDは500bp未満のSNP間で低下することが多く,高い分化や自然選択のサインを示すSNPが見つかったとしても,数kb離れた表現形質に対する候補遺伝子の同定に有用であるとは考えにくいことを意味する。したがって,最近提案されている,10000個程度のSNPを含むSNP-chipを用いて自然集団のQTLをマッピングすることが有効かどうかは不明である(Hagen et al. 2013)。
https://scrapbox.io/files/62678b5e6a3995001d7a2ccf.png
図5:アラバマ州オーバーンで採取されたマイコプラズマ感染前(1990年)と感染後(2003年)の個体間で比較した各SNPのFSTの推定値と関連するFisherの正確確率検定のp値。
p値のプロット上の点線はp=0.05の未補正カットオフを示す。ボンフェローニ補正後,有意なFSTを達成したSNPはない(本文参照)。SNPの位置は,ハウスフィンチゲノムとゼブラフィンチゲノムがシンテニーであると仮定して,ゼブラフィンチゲノムにマッピングされた状態で描かれている。FSTの高い値は必ずしも高いフィッシャーのp値に関連するわけではない。これは通常,データマトリックスが不完全でその位置のサンプルサイズが小さいためで,RAD-Seqデータではよくある状況である。ハウスフィンチの画像は http://www.flickr.com/photos/11652987@N03/7315942062 から引用し,クリエイティブ・コモンズ2ライセンス https://creativecommons.org/licenses/by/2.0/ で使用。
最近の統計モデルは,自然集団の染色体全体に沿った表現形質の基礎となる遺伝子座の効果量分布を推定する新たな力を約束するものである。例えば,Santureら(2013)は,約10,000のSNPsを用いて,英国Whyndham Woodsで研究したシジュウカラゲノムのほとんどの染色体について,翼長やクラッチサイズなどの連続形質に対するある染色体の効果がその染色体の長さ,すなわちその染色体上の遺伝子数に比例するモデルを見いだした。この結果は,焦点となる形質の変動に対して,ほぼすべての遺伝子が同様の,しかも限りなく小さな効果を持つことを示唆している。しかし,このような帰無仮説が棄却されないことが,ゲノムのサンプリングが比較的貧弱であることにも起因しているのかどうかは不明である。10,000 SNPは一見多いように見えるが,LDの高いゲノムブロックの変異を捉えるという点では,特に脊椎動物のゲノムが1–3Gbのオーダーで,集団組換え率の高い種では,比較的少ないのである(Edwards 2013)。
ヒッチハイクの測定は,拡大する系統地理学の領域にとって非常に重要であり,最終的には,系統地理学的な情報に基づく全ゲノムリシーケンス研究のために,縮約ゲノムアプローチを見送ることになると予想される。現在,ゲノム解析が行われていない種でこのような研究が行われ始めており(Ojeda et al. 2014など),その結果はゲノムの変異や構造の決定要因について有益であると同時に刺激的である。
系統地理学から遺伝子型,表現型へ
From phylogeography to genotype to phenotype
自然選択の影響を受けて変化した遺伝子座は,しばしば表現形質の根底にある遺伝子座でもある。表現型形質の自然変異の基盤となる遺伝子座の探索は,現代の進化生物学の大きな柱となっている(Hoekstra et al. 2006, Hoekstra & Coyne 2007, Ellegren & Sheldon 2008, Rebeiz et al. 2009, Hiller et al. 2012, Jones et al. 2012b)。このような遺伝子座を同定する方法には,血統や交配を用いたQTLや連鎖地図,あるいは複数の種類のゲノム,トランスクリプトーム,メタボロームデータを統合する「システム遺伝学」(Feltus 2014)などがあるが,系統地理と最も関係が深いのはアソシエーションマッピングであろう。この連関は,アソシエーションマッピングにおいて,特定の表現型の分布と相関するゲノム遺伝子座を見つけることを目的とした集団間比較を行うために生じる(Stingchcombe & Hoekstra 2008, review in Kratochwil & Meyer 2015)。また,景観遺伝学と適応的表現型の根底にある遺伝子座の探索との間に同様の関連性をもたせた者もいる(Jones et al. 2013)。アソシエーションマッピングは,非モデル種における遺伝子型と表現型のギャップを埋めるために大きな期待が寄せられており,多くの状況において,血統や対照交配を用いたマッピングよりも統計的能力が高い(Schielzeth & Husby 2014)。実際,集団史の推定と表現形質と関連する遺伝子座の同定を同時に行うという新たなトレンドが生まれつつある(例:Fumagalli et al. 2011, Linnen et al. 2013)。アソシエーションマッピングは「ゲノム変異のほとんどが近縁の集団や種の間で共有されており,おそらく高い遺伝子流動でつながっているが,それらの集団の間に顕著な表現型の違いが存在する」ような状況で最も威力を発揮すると考えられる(Axelsson et al. 2013, Cullingham et al. 2014, Schielzeth & Husby 2014)。このような状況では,アソシエーションマッピングにより,対照集団と比較集団の両方でほぼ全ゲノムにわたって同様のアリル頻度が明らかになるはずだが(これは多くの場合,共有常在変異 shared standing variationによる),関心のある多様な表現型と相関する変異を持つ遺伝子座ではアリル頻度が異なっているはずである。まさにこの状況は,アソシエーションマッピングまたは候補遺伝子調査が有用であることが証明された,いくつかの植物を含む非モデル種の新たな研究例で見出されている(Comeault et al. 2014, Cullingham et al. 2014, Johnston et al. 2014, Pearse et al. 2014, Roesti et al. 2014)。このような状況での候補遺伝子の利用も,非常に有益な情報となり得る(Uy et al. 2009)。 実際,集団が適度な分岐の歴史を持ち,比較されるゲノムが中立的な集団動態的分化 demographic divergence により多くの部位で異なる場合,そのような集団間の表現形質の原因として,大きなアリル頻度差を示す遺伝子座を誤って推定しないよう,部分構造化を補正することが不可欠になる(Pritchard et al. 2000, Patterson et al. 2006, Price et al. 2006, 2010)。
結論
Conclusions
現在,系統地理学にとってエキサイティングな時期である。次世代シーケンサーを用いた研究により,種内の高解像度な部分構造を,かつての単一遺伝子座のmtDNAやマイクロサテライト研究をはるかに超える詳細さで得られた例が増えつつある。現在では,RAD-seqなどの手法で得られるような数千の遺伝子座が,ある種内の主要な系統地理学的系統を発見するのに十分であることは明らかである。種の歴史に関するより詳細な情報は,ゲノムサンプリング(すなわち個体サンプリング)の増加によって常にさらに明らかにすることができるが,これらの詳細の多くは,その年代やゲノム全体の変異パターンへの影響の軽さのため,集団史の再構築から失われていると思われる。今後,系統地理学において全ゲノムリシーケンスがより一般的になると予想されるが,系統地理学の中心的な目的,すなわち種内の系統や中立的な人口動態の再構成に厳密に焦点を合わせる場合,この方法がオーバーキルになるかは不明である。はっきりしているのは,次世代シーケンシングアプローチがマイクロサテライトではなくSNPの使用を復活させ,遺伝子座や種間の比較を容易にし,比較系統学に統一的な枠組みを提供していることである(Hickerson et al. 2010, Andrew et al. 2013 )。
しかし,次世代シーケンシングが系統地理学の概念的な境界を崩したことで,かえって視野が広がり,系統地理学の中核的な焦点と関連する関心領域(自然選択の歴史を持つ遺伝子座や適応的形質の変異の遺伝基盤の特定など)との境界が曖昧になった。系統地理学的な歴史の再構築とそのような適応的な遺伝子座の探索を組み合わせた研究は一般的になってきており(Deagle et al. 2012, Jones et al. 2012a, b, Pearse et al. 2014, Wallberg et al. 2014),適応的形質の基盤となる遺伝子座の同定という目標は,しばしば集団動態史を理解することと同じくらい重要視される。このように概念的に拡大した系統地理学は,この分野の進化における重要な局面を示しているとともに,(系統地理学者の目は常に光っていたものの,)近年のハイスループットなゲノムアプローチの登場により,明確に推進されてきました。系統地理学がその範囲を広げるにつれ,RAD-seqなどのゲノム縮約法は,種内の系統地理学的クラスターを特定するには非常に強力ではあるが,自然選択のターゲットとなる遺伝子座や真のターゲットにつながる遺伝子座を特定するには不十分であることが明らかになりつつある。全ゲノムリシーケンスは,従来の系統地理学的調査とまではいかなくとも,自然集団における量的形質の基盤となる遺伝子座や種内の分岐の歴史を探求する上で,標準的なツールとして台頭してくると思われる。
謝辞
本号への寄稿を依頼してくれたUtku Perktaşに感謝する。また,Tim Sackton,Fábio Raposo do Amaral,Ryan Garrick,Bryan Carstensには有益な議論とデータの共有を,2名の匿名査読者とRyan Garrickには原稿に対する有益なコメントをいただいた。また,Emily KayとBrant PetersonによるRAD-Seqライブラリー調製プロトコルの提案,Christian DalyとJennifer CougetによるIlluminaシーケンスに関する協力に感謝する。本研究は,SVEへのNSF助成金DEBIOS 0923088,AJSへのアメリカ自然史博物館,アメリカ鳥類学者組合,進化研究学会からの助成金によって支えられている。Jonathan Lososの研究室のメンバーは,Anolisプロジェクトのアイデアと分析手法の開発において有益なコメントを提供してくれた。Harvard Museum of Comparative Zoology Putnam Expedition Grant,Miyata Award,Robert A. Chapman Memorial Scholarship はAnolisフィールドワークの資金源となった。Anolis Rad-Seq研究はSCCとSVEへのNational Science Foundation Doctoral Dissertation Improvement Grant (DDIG award # 1311484)の支援を受けた。